AI Agents are disrupting automation
ポイント
自動化が機能するための「Crawl, Walk, Run」 アプローチ
赤ちゃんが歩くようになるまでの過程と似ている。
・最初はハイハイ(クロール)から始まる。
・次につかまり立ち歩きができるようになり(ウォーク)、最後は一人で走れるように(ラン)なる。
AIによる自動化も同じように、段階的に進めていく必要がある。
クロール
まずは簡単な作業から自動化を始めて、AIがちゃんと動くか確認する。
ウォーク
うまくいくようになったら、少し複雑な作業も自動化してみる。
ラン
最後に、AIが十分に信頼できるようになったら、もっと複雑な作業も任せていく。
AIはまだ成長段階だから、最初から難しいことを任せると、うまくいかないことが多い。
だからこそ、AIに色々な作業をさせてみて (エージェントで実験を続け)、どんな作業が得意なのか、どんな作業はまだ難しいのかを見極めることが大切
AI機能が真に価値を追加する場所を学ぶ。
そして、AIがうまく作業できるように、必要なデータやツールを準備しておく。
専門特化したエージェントを組み合わせる設計
今後主流になるであろう設計思想
複雑な仕事をAIエージェントにうまく分担させて、正確にこなせるようにする仕組み。
https://scrapbox.io/files/664019b7982350001d1f53cb.png
これは、学校の文化祭で劇をやることに例えると、わかりやすい。
この劇を成功させるには、たくさんの仕事が必要。
台本を書く人
役者を演じる人
衣装を作る人
照明や音響を担当する人
舞台を作る人
もし、これらの仕事を一人だけでやろうとしたら、とても大変。
そこで、それぞれの仕事が得意な人に、分けて任せることで、劇をスムーズに進めることができる。
AIエージェントも同じように考えられる。
例えば、文章を書くのが得意なAI、計算が得意なAI、画像を認識するのが得意なAIなど。
それぞれのAIエージェントがうまく仕事できるように、必要なデータやツールなどを用意する。
劇の例でいうと、台本、衣装、照明機材などが「足場」にあたる。
このように、AIエージェントを「混合」して、それぞれの「エキスパート」に仕事を分担させることで、複雑な作業も正確にこなすことができるようになる。
例えば、旅行の計画を立てるとき...
旅行先を決めるAI
ホテルを予約するAI
交通手段を手配するAI
観光プランを作るAI
これらのAIエージェントが協力して、あなたにピッタリの旅行プランを作ってくれるようになる。
AI automationカオスマップ、これからもっと増えてくるだろう
https://scrapbox.io/files/664024d1d0300b001c394000.png
感じたこと
自動化と赤ちゃんをなぞらえるの面白い...
赤ちゃんが走れるようになるためには、はいはい => 歩く => 走る の経過を辿る。
これは、自動化の時も同じ。
AI(赤ちゃん)に、いきなり複雑な自動化(走らせる)を任せるのではなく、簡単なことをまずやらせ、その後複雑な処理を任せるようにするとよい
初学者が、いきなりDifyのワークフローでごちゃごちゃ考えても失敗するのと同じ。 いくら考えても、実務にそのワークフローを活かすことはできない。
まずは、はいはい(Crawl)しよう!
ショートカットキー、Raycast、Alfred、Arcブラウザなどを使おう! DeepL、Claudeなどを使って、要約/翻訳/返信などをさせてしまおう!
iPhoneでも、ショートカット + Assitive Touchは、強力な自動化。(使ってる?)
GPTsで「点」の簡単な自動化タスク(要約/翻訳/返信など)を任せるのも良い。 はいはいを卒業クリアできたら、次は、歩く(Walk)ことを目指すといい。
これ(Walk)をクリアできて初めて、走る(Run)と良い。
こういった順番が大事かもしれない。
いきなり、複合エージェントシステムを使おうとしても、キャパオーバーになってしまう。
現実を見つめよう。
この記事では、自動化を
第二世代(生成AI)
https://scrapbox.io/files/664009a0fae842001d884c62.png
2024年5月時点では、MoE(複合エキスパートEgent)が最先端かと思う。
AIによる生産性は、まだ現実よりも誇大広告の方が多い。
自分も全くそう思う!いちいち驚いてる場合ではない。
AI自動化ツールの使い方ばかり宣伝するのではなく
自分の業務に真剣に向き合い、その中で生まれた洞察や知見を広めた方が良いよ。
人類の発展のために。
概要
AIツールの主流化は、ナレッジワーカーと消費者の両方にとって、劇的な生産性向上の希望に火をつけました。Transformerベースの大規模言語モデル(LLM)は、新しい自動化アプローチでワークフローを変革するAI機能を実証しました。以下の記事では、AI時代の自動化の旅をたどり、現在および進化中のプラットフォームの一部を掘り下げます。 まず、自動化分野の進化に関する予測をいくつかご紹介します。
消費者から知的労働者まで、誰もがAIアシスタントを持つ
これは、垂直アプリケーション、自動化プラットフォーム、ITサービス間の従来の境界を再定義し、起業家にとって変革的な市場機会を生み出します。AIアシスタントは、既存プラットフォームのCopilotから、AIが組み込まれたアプリケーション、さまざまな形式のAIエージェントまで、さまざまな形をとるでしょう。 「Human-in-the-loop」(人間参加型)は、生成AIソリューションを展開するための有効なフレームワーク
今日のユースケースのほとんどは、アドバイザリーおよびアシスタント指向のワークフローに焦点を当てた実験段階または初期の生産段階にあります。LLMはまだ予測可能な計画や推論を行うことができず、メモリやコンテキストなどの領域はまだ研究段階です。決定論的実行が重要な自動化プラットフォームでは、LLMは「実行時」ではなく、「設計時」に特定のタスクに使用されています。
自動化は難しい問題であり、過小評価されることがよくあります。
既存企業は、プラットフォームの効率とUXを向上させるために、AIと深い経験をプレイブックに追加しています。最先端のLLMプロバイダーは、ユーザーがAIエージェントを迅速に構築できるように、エージェントモデリング、コラボレーション、ツールへのアクセスを追加しています。ブレークスルーを目指しているScaleUp企業は、独自のデータセットとシンプルなUXに基づいた、再考されたワークフローで差別化された顧客価値を提供する必要があります。 全く同意見。
AIによる自動化の展開は、「クロール、ウォーク、ラン」アプローチをとるでしょう。
💡最高の考察。大変勉強になりました🤲
つまり、単純なタスクからより複雑なワークフローへと徐々に進んでいきます。重要なのは、エージェントで実験を続け、AI機能が真に価値を追加する場所を学び、データ、ツール、ランタイムの観点から適切な「足場」が自動化アーキテクチャの一部であることを確認することです。
自動化プラットフォームの進化
自動化は、人間の絶え間ない努力です。すべてのナレッジワーカーは、おなじみの「マクロ」を知っています。これは、生産性をさらに向上させるために、反復的な一連のコマンドのショートカットです。
初期の自動化の取り組みは、見積もりから現金化、給与計算などのワークフローに焦点を当てており、エンジニアは静的なルールと定義によって管理されるワークフローをつなぎ合わせるカスタムコードを作成しました。これらの壊れやすい初期のアプローチは、次のような第1世代の自動化プラットフォームの開発を促進しました。
RPAプラットフォームは、反復的な手動タスクを自動化する際に最大の価値を提供します。事前定義されたワークフローのライブラリと、ユーザーが独自のプレイブックを作成するのに役立つローコード/ノーコードプラットフォームを組み合わせています。RPAプラットフォームは、機能を拡張するためにAI/MLモデルを徐々に組み込んできました。
WorkatoなどのiPaaSプラットフォームは、データ、アプリケーションソース、APIを統合してさまざまなリソースを接続するミドルウェア層を作成することから始めました。このデータ層は、自動化エンジンの重要な入力であり、クリーンなインターフェースを作成することが自動化の旅の最初のステップです。 ローコードタスク自動化プラットフォームは、ナレッジワーカーと中小企業の反復的なタスクを自動化するためのシンプルなUIを備えた事前定義された統合セットを提供します。
さまざまな垂直自動化アプローチは、サプライチェーン、IT運用、開発者エコシステムなどのドメインにおける特定のワークフロー、およびヘルプデスクやカスタマーサービスチームなどの顧客向けのユースケースのためのチャットボットに焦点を当てています。
これらのプラットフォームは反復的な作業を大幅に削減しましたが、事前定義されたワークフローで必要とされるブートストラップや、自動化の価値を実現するためのコンサルティングによる展開には依然として複雑さが残っていました。実装は、企業の運用環境の変化に対して脆弱でもありました。
💡なるほど、確かにこれは課題かも。たとえばRPA組んでも、UI変わればやり直さなければならない。Zapierでワークフロー組んでも、連携するサービスが変われば、破綻してしまう。
生成AIは、既存企業が今日プラットフォームに魅力的な機能を組み込み、開発者が新しいアーキテクチャを実験し、研究者が自律型人工知能(AGI)の究極の目標に向けて推進するにつれて、この自動化の旅を加速させる可能性を秘めています。
自動化におけるAI:さまざまなプレーヤー、異なるアプローチ
企業における自動化は多くの場合複雑なタスクであり、一部の実務家はそれをワークフローを実行するための複数の要素の複雑なオーケストレーションと呼んでいます。生成AIの出現により、既存企業とスタートアップ/ScaleUp企業はこの機会に異なる角度からアプローチしています。
RPAおよびタスク自動化プラットフォームは、自動化されたワークフローの豊富なライブラリと、企業と協力して複雑なワークフローに取り組んできた経験により、大きな先行者利益をもたらします。生成AIは、簡素化されたユーザーエクスペリエンスで、脆弱性とブートストラップの問題に対処する機会を提供します。
Microsoft 365やNotionなどのアプリケーションプラットフォームは、タスクの完了、提案の提供、ユーザーのワークフローを支援するコンテンツの生成を支援するために、AIをプラットフォームとユーザーワークフローに直接組み込んでいます。 https://scrapbox.io/files/66400ec37f90db001d4e3f33.png
AIネイティブアプローチは、アプリケーションまたはワークフローから始まり、最初の原則の観点からそれを再考します。
LLMプロバイダーとスタートアップ/ScaleUp企業は、AIエージェントを活用して生成AI機能を活用し、シンプルなワークフローを実行するという、自動化への新しいアプローチを採用しています。他のアプローチは、複雑なワークフローやアプリケーションに対応するために必要な「足場」とLLMを接続します。エージェントによる自動化は今日、開発者がモデル、アーキテクチャ、ツールを実験するにつれて、絶え間ないイノベーションと研究の分野です。 RPAとタスク自動化プラットフォーム
現在の世代の自動化プラットフォームは、プラットフォームの一部として新しいMLおよびAIモデルを積極的に採用しています。これらのプラットフォームの現状の概要を以下に示します。
https://scrapbox.io/files/664011d5dcf9a3001c68e673.png
ユーザーインターフェース
ユーザーが自動化を構築、展開、検証できるローコードスタジオに接続します。このインターフェースは、パフォーマンスの監視、ポリシーごとの使用状況の追跡、さらには作成した自動化のROIの測定にも使用されます。
Difyの分析ダッシュボードみたいなやつか
ミドルウェアとして重要な役割を果たし、アプリケーション、データストア、イベントストリームからのデータをまとめて、自動化レイヤーへの効率的なインターフェースを作成します。
Dify のAPIやカスタムツールみたいなやつか
自動化レイヤー
スタジオからのテンプレートを使用して、事前に構築されたプレイブック、予測MLモデルとツールのライブラリから選択するか、新しいワークフローを実行します。一般的なユースケースには、次のようなものがあります。
Dify のWorkflowみたいなやつか
画像やメールなどの非構造化ソースからデータを抽出し、フォームに記入する。
人間を観察する(例:画面の読み取り、キーストロークの追跡)ことで、反復可能なワークフローを作成したり、潜在的な新しい自動化を提案したりする。
在庫システムからデータを抽出し、MLモデルを使用して予測を作成する。
既存企業は、ユーザーエンゲージメントを簡素化し、新しいワークフローを提供するために生成AIを使用しています。たとえば
「営業プロスペクティング」などのタスクを入力すると、コパイロットはその意図を解釈し、自動化のライブラリを検索して、ユーザーにタスクの開始点を提供します。
ZapierのCopilot機能のように、チャットでやりたい機能を伝えると、提案してくれるようなやつ。
https://scrapbox.io/files/664012b42dab05001dae0e94.png
AIツールは、ユーザーの価値実現までの時間を短縮することで、これらのプラットフォームが既存の利点(顧客とプレイブック)の上に構築するのに役立ちます。
UI/UXの改善は、複雑な展開を開始するためにユーザーが通常必要とするコンサルティングによるブートストラップを削減するのに役立ちます。LLM機能が進化するにつれて、RPAとタスク自動化も機能が向上すると期待できます。
エージェントによる自動化フレームワーク:コパイロット/ GPTとエージェント
ノーコードエージェント/GPT
AIエージェントは実験として始まり、Yohei Nakajimaなどの開発者は、LLMのネイティブ機能に基づいて構築され、単純な自動化を実行するBaby AGIなどのプロジェクトをリリースしました。LLMプロバイダーは現在、LLMのカスタムバージョンを構築するための外部リソースへのプラグインのライブラリを備えた、魅力的なノーコードプラットフォームを提供しています。多くの単純なタスクや1回限りの自動化の場合、これはすぐに開始するための高速な方法になる可能性があります。 このアプローチでは、ノーコードコンソールにより、ユーザーはタスクの詳細な説明を提供したり、Few-Shotプロンプトを使用してタスクエージェントの構築においてLLMをガイドしたりできます。LLMプロバイダーは現在、データソースとアプリケーションとの統合を提供しており、エージェントはワークフローの一部として外部データを利用できます。エージェントは、精度のためにRAGなどの手法を使用して、独自のデータを使用することもできます。APIは、検索などの外部ツールを取り入れます。 上記の高度なエージェントは、これらのさまざまな要素を統一されたエージェントにまとめるグルーコードを使用して、LLMの機能を中心に構築できます。LLMプロバイダーは、エージェントモデリング、コラボレーション、より多くのツールアクセスと事前構築された機能、Reflexion、安全ガードレールなど、新しい機能を継続的にリリースすることが期待されており、エージェントを構築するための強力なプラットフォームになっています。 混合エキスパートエージェントアーキテクチャ
Bardeen、Imbue、MultiOnなどの開発者は、混合エキスパート(MoE)エージェントフレームワークを使用して、複雑なワークフローに対して決定論的な結果を提供するという問題に取り組んでいます。
アイデアは、ワークフローを特定のエージェントまたは機能に割り当てられたタスクにセグメント化し、データ、豊富なツールセット、インターフェースを含む必要な「足場」をエージェントに提供することです。アーキテクチャの概算を以下に示します。
💡初見ではわからなかったが、わかった。(感じたこと参照)
演劇を作る時と似てるね。
https://scrapbox.io/files/664019b7982350001d1f53cb.png
ユーザーインターフェース
ユーザー向けのLLMにより、ユーザーはタスクを記述し、コンテキストウィンドウを活用して、Few-Shotの例などの関連するコンテキストを提供できます。新しいUIアプローチはユーザーコンテキストとインタラクティブ性を組み込み、ユーザーがエージェントを操縦してアプローチを洗練できるようにします。この設計により、「Human-in-the-loop」は最終出力を証明できます。 タスクエージェント
ワークフローは、LLMエージェントによって実行される個別のタスクに分解できます。その一部を以下に詳しく説明します。これにより、現在のLLM機能が最適化され、クリーンな抽象化と、将来アップグレードまたは再構成するためのオプションを備えた特定の機能にタスクエージェントを使用する柔軟性が実現します。
プランニングエージェントは、ユーザーの意図をタスクリストに分割する計画を提案するでしょう。
ルーティングタスクは、タスクを適切なAI/MLエージェントまたは事前定義されたワークフローにマッピングします。
機能エージェントは、特定のタスク(生成AIまたは予測MLモデル)でトレーニングされます。
Codegenエージェントは、タスクをコード(SQLなど)に変換します。
Reflection LLMは出力を反復処理して品質を評価し、最終出力を洗練します。
決定論的ランタイム
一貫して正しい最終出力を提供するには、決定論的ランタイムでさまざまなタスクからの異なる出力を構成することが有効であることが証明されています。たとえば、金融のユースケースでは、コード生成LLMは、正確なデータ抽出のためにランタイムで実行されるSQLクエリを生成します。
MoEアーキテクチャのコア設計原則は、AI/MLモデルを必要な場合にのみ使用し、事前定義されたワークフロー/プレイブックを活用することです。LLMは、決定論的ランタイムで合成して設計時に使用されています。
エージェント-人間AIインターフェース
前述のように、Human-in-the-loopインターフェースは、今日のアーキテクチャの重要な側面です。開発者は、コンテキストウィンドウへの入力から、ブラウザ拡張機能としてエージェントを設計するまで、さまざまなアプローチでユーザーコンテキストにエージェントを接地しています。これにより、ユーザーの行動を観察し、コンテキストをキャプチャできます。 LLMプラグインは、外部データまたはツールを取り込み、エージェントにさらに多くのスキルを与えるための重要な側面です。
最後に、エージェントはAPIを使用して、メール、生産性、コミュニケーションツールなどのユーザープラットフォームと通信し、典型的な人間のワークフローをエミュレートできます。
エージェント-エージェントインターフェースは、活発な研究開発分野です。MoEモデルでは、前述のように、さまざまな能力を持つタスクエージェントが相互作用する必要があります。やがて、エージェントが他のエージェントと対話してタスクを達成することを想定できます。これは、今日のアプリケーションを接続するAPIのAI対応バージョンに外挿されます。
自動化を展開する企業向けの考慮事項
ほとんどの企業は、特定のタスクのための従来のRPAおよびタスク自動化プラットフォームから、自社開発のソリューションまで、すでにさまざまな自動化プラットフォームを使用しています。AIによる生産性は、まだ現実よりも誇大広告の方が多い。
💡最高じゃん。自分もそう思う
生成AIベースの自動化の候補者は、以前のアプローチと同様の成熟曲線をたどるため、冷静な費用対効果分析を受ける必要があります。
「データが重要だ。」 AIエージェントのパフォーマンスは、トレーニングデータの品質と関連性に直接関係しています。多くの企業にとって、この旅は、モデルの基盤となる、クリーンで焦点を絞ったデータセットとパイプラインを作成することから始まります。
LLMの状況は、SOTAバーをリセットするGPT5/Llama3の差し迫ったリリースに伴い、急速に進化しています。同時に、GPT4レベルのパフォーマンスを持つ複数のモデルが、魅力的なコストポイントで利用できるようになりました。企業は現在、ユースケースと機能のニーズに基づいて、さまざまなソースから、さまざまなコストパフォーマンスレベルでモデルを選択できます。 プラットフォームレベルでは、市場にはいくつかの選択肢があります。既存企業は、ユーザーの価値実現までの時間を短縮するために、AIを組み込んだり、Copilotを提供したりしています。スタートアップ/ScaleUp企業とLLMプロバイダーは、垂直ユースケースを再考したり、コスト、パフォーマンス、UXを変革する新しいプラットフォームを作成したりするために、AIネイティブアプローチを採用しています。
今日のLLMはプロンプトに非常に敏感であり、わずかなバリエーションがモデル出力のドリフトを引き起こす可能性があります。ユースケースレベル(モデルレベルではなく)での明確なパフォーマンス指標の確立が重要です。ガバナンスとデータセキュリティについても同じことが言えます。Human-in-the-loopは、今日のすべてのAI展開の基本的な機能です。
自動化における開発者向けの考慮事項
開発者は、自動化プラットフォームで生成AIを使用して「クロール、ウォーク、ラン」アプローチを採用できます。差別化されたソリューションを構築するには、ユーザー、ユースケース、パフォーマンスベンチマークを深く理解し、LLMをタスクの機能に一致するツールとして活用することが重要です。
LLMは主にシステム1思考者(トレーニングデータに基づく反射的な応答)です。開発者は、差別化された機能と事前定義された機能/プレイブックに必要な場合にLLMを使用し、可能な場合はMLモデルを使用しています。焦点を絞ったターゲットを絞ったデータセットは、モデルを接地するために重要です。
複雑なユースケースの場合、ユーザーコンテキスト、外部ツールとデータセットへのアクセス、リフレクションメカニズムなどを組み込むための絶え間ない実験と適切な「足場」は、「混合エキスパート」エージェントアーキテクチャの基礎となる側面です。
シンプルなテキストベースのUIは、良い第一歩です。開発者は、リアルタイムのインタラクティブ性とマルチモーダルUIを追加することで革新を図り、ユーザーがLLMタスクリストを追跡し、出力を評価し、出力を操縦するための積極的なフィードバックを提供するためのより積極的なエンゲージメントを作成しています。
適切なガバナンスを備えた差別化されたデータセットの提供、および安全性のトレードオフ、セキュリティガードレール、パフォーマンスの検討は、エンドユーザー環境への展開時に規制およびコンプライアンスの問題を回避するために重要です。